VOXECEL数据集广泛用于扬声器识别研究。我们的工作有两个目的。首先,我们提供发言者年龄标签和(替代)发言人性别的注释。其次,我们通过构建具有不同特征和分类器的年龄和性别识别模型来展示这种元数据的使用。我们查询不同的名人数据库,并申请共识规则以获得年龄和性别标签。我们还使用我们的标签进行比较原始的VoxceleB性别标签,以识别可能在原始VoxceleB数据中误标记的记录。在建模方面,我们设计了对识别性别和年龄的多种功能和模型的综合研究。我们使用I-Vector特征的最佳系统实现了使用Logistic回归的性别识别任务的F1分数0.9829,并且使用RIDGE回归获得了9.443年的年龄回归的最低平均绝对误差(MAE)。这表明来自野外风格语音数据的年龄估计的挑战。
translated by 谷歌翻译